Wang Haihua
🍈 🍉🍊 🍋 🍌
不同的算法可以根据它们“学习”数据进行预测的方式分为两类:监督学习和非监督学习。 在监督学习中,你有输入变量(x)和输出变量(Y)你使用一个算法来学习从输入到输出的映射函数Y = f(x)。我们的目标是很好地逼近映射函数,以便在有新的输入数据(x)时能够预测该数据的输出变量(Y)。
监督机器学习算法的技术包括线性和逻辑回归,多类分类,决策树和支持向量机。监督学习要求用于训练算法的数据已经标记了正确的答案。例如,一个分类算法将在经过正确标记动物种类和一些识别特征的图像数据集的训练后学会识别动物。
监督学习问题可以进一步分为回归问题和分类问题。这两个问题的目标都是建立一个简洁的模型,从属性变量中预测从属属性的值。这两种任务的区别在于,回归的预测的结果是数值的,而分类则是是类别的。
回归问题是当输出变量是一个真实的或连续的值,如“工资”。可以使用许多不同的模型,最简单的是线性回归。它试图用经过这些点的最佳超平面来拟合数据。
分类问题指的是输出变量是一个类别的问题,如“红色”或“蓝色”或“疾病”和“无疾病”。一个分类模型试图从观测值中得出一些结论。给定一个或多个输入,分类模型将试图预测一个或多个结果的值。
例如,预测电子邮件是“垃圾邮件”还是“非垃圾邮件”。简而言之,分类要么预测类别类别标签,要么基于训练集和分类属性中的值(类别标签)对数据进行分类(构建模型),并使用它对新数据进行分类。有许多分类模型。分类模型包括逻辑回归、决策树、随机森林、梯度提升树、多层感知器和朴素贝叶斯。
参考资料